Bei 5 Zuordnungsregeln wird anhand eines speziellen Datensatzes der Einfluß der Anzahl
betrachteter Variablen, Patienten und Krankheiten auf die Klassifikationsergebnisse
untersucht. Für die /verwendeten Daten aus der Hämatologie liefern die einfacheren
Verfahren (Bayes-Verfahren für quantitative und qualitative Variablen, lineare Diskriminanzanalyse)
bessere Resultate als die mathematisch anspruchsvolleren Methoden (Diskriminanzanalyse
für qualitative Daten bei Berücksichtigung von Wechselwirkungen 1. Ordnung, nichtlineare
Diskriminanzanalyse), und der modellbedingte Fehler erweist sich bei der vorliegenden
Datenstruktur als weniger schwerwiegend als der Fehler bei der Parameterschätzung.
Während bei qualitativen Daten die Berücksichtigung von mehr als 30 Variablen vorteilhaft
sein kann, verbessern bei quantitativen Daten Variablenzahlen über 10 die Ergebnisse
nicht nennenswert, verschlechtern jedoch die Stabilität der Schätzungen. In einer
Tabelle werden für 3 Verfahren Mindestpatientenzahlen angegeben, die bei den vorliegenden
Daten zu stabilen Ergebnissen führen. Die Untersuchungen zeigen, daß die Kreuzvalidisierung
eine weitgehend verzerrungsfreie Bewertung von Klassifikationsergebnissen erlaubt.
Demgegenüber ist die Reklassifizierung in den meisten Fällen hierfür nicht geeignet.
For 5 allocation rules it is investigated by means of a special set of data how the
numbers of variables, patients and classes influence the classification results. For
the data used from hematology, the simpler methods (Bayes method for qualitative and
quantitative variables, linear discriminant analysis) perform better than the more
discriminating allocation rules (discriminant analysis for qualitative variables considering
interactions of first order, non-linear discriminant analysis) and for the data structure
considered the errors deriving from simplified model assumptions turn out to be less
important than the estimation errors of the parameters. Whereas for qualitative data
the use of more than 30 variables may lead to better results, for quantitative data
more than 10 variables do not improve the scores but rather affect the stability of
the estimations. In a table the minimal patient numbers are presented for which the
data used yield stable results. Furthermore, it turns out that the cross validation
leads to a rather unbiased assessment of classification results. On the other hand,
in most cases resubstitution is unsuited for this purpose.
Schlüssel-Wörter
Computerunterstützte Diagnostik - Vergleich von Klassifikationsverfahren - BayesVerfahren
- Diskriminanzanalyse - Klassifikationsfehler
Key-Words
Computer-aided Diagnosis - Comparison of Allocation Rules - Bayes Theorem - Discriminant
Analysis - Error Rates of Allocation